查看原文
其他

Midjourney创始人大卫·霍尔兹

凯瑞kerry SV Technology Review 2024-04-14

Midjourney作为AI绘画领域的龙头企业,成立不到一年,0融资,11人团队,1亿美金收入火爆全球,我们一起看看MJ创始人的故事。

如果您也在从事AI相关工作,欢迎添加小编微信pkcapital2023,和一群对创业和投资有热情的小伙伴一起交流,。

大卫·霍尔兹(David Holz)是福布斯 30 位 30 岁以下的人物之一,也是 Fast Company 最具创造力的人物之一。他拥有 110 多项专利和出版物,引用次数超过 4,000 次。作为 Leap Motion 的联合创始人兼首席技术官,David 已经从 Andreseen Horowitz、Founders Fund、Intel Capital 和 JP Morgan 等投资者那里筹集了超过 1.2 亿美元的风险投资。

——David Holz 的LinkedIn简介

  1. 早期生活和教育经历

大卫·霍尔兹(David Holz) 在佛罗里达州劳德代尔堡的一个沿海社区长大,那里有大房子、老人和很少的年轻家庭。附近没有朋友一起玩,年幼的霍尔兹只好在车库里忙着拆解任何他能拿到手的电子设备。

佛罗里达州劳德代尔堡

 “我从镇上的人那里收集了这些电子产品。有人会把他们的电脑弄坏然后交给我,”他回忆道。他会检查他拆解过的东西的各个部分,并试图找出它们的新用途。

霍尔茨似乎从父母那里继承了黑客心态。当他的母亲还是个女孩时,她试图制造一枚火箭;它在地面上留下了一个八英尺宽的弹坑。他的父亲小时候建了一个家庭化学实验室,在他上大学后,他的父母不得不打电话给消防部门,清除他藏匿的所有危险物质。结婚后不久,这对夫妇随心所欲地在加勒比海航行了几年。他的父亲是一名牙医,在帆船上设有牙科诊所,他会航行到加勒比海地区去看望他的病人。

八岁左右,霍尔兹开始将自己的好奇心用于制作东西,而不是将它们拆开。“那时我已经非常擅长制作纸飞机了——我已经通过实验验证了哪些纸飞机在哪些方面是好的,”他说。但他需要准确了解它们的工作原理,因此他开始在车库中使用有机玻璃、硬纸板、大风扇以及配重和平衡系统制作风洞。他对风洞的迷恋在七年级时达到顶峰,当时他开始建造一个他希望能打破音障的风洞(它的一侧是压缩氦气,另一侧是真空室)。他的父母担心他的安全,在他说完之前阻止了他。他读了史蒂芬霍金的《时间简史》 并开发了一种简单的方法来测试狭义相对论:通过监控时钟,他将发送到世界各地不同高度的地方。

在他的实验中,霍尔兹很早就意识到计算机是强大的工具。“我总觉得有技术比没有技术更好,”他说。但在某一时刻,他开始注意到计算机的不足。在中学时,他自学使用复杂的设计软件,并开始为他想要创造的事物构建 3D 模型。 

“我可以在几分钟内塑造一块粘土,但在计算机上完成这件事需要我大约五个小时。所以我开始想,‘好吧,这里有什么问题?为什么计算机在这项技术上这么糟糕?’’

必须有更好的方法来塑造虚拟粘土。“这就像,我知道我想要什么,所以问题不在于我,而在于电脑的输入系统,”他说。“如果我要设计出塑造粘土的最佳方式,那就不会是按下一堆按钮。那将是用我的手。”就这样,Leap Motion 的种子在霍尔兹年幼的心灵里埋下了。

与此同时,在学校他结识了一小群对运动不感兴趣的聪明孩子——其中包括一位名叫迈克尔·巴克瓦尔德的年轻辩论迷。该小组开始举行圆桌会议,在会上他们讨论重要的想法,例如教育体系和选举政治。

Buckwald和Holz(左)在11岁时相遇,当时他们在佛罗里达州读五年级,自此以后一直保持着朋友关系;现在他们成为了生意伙伴。

不过,对于学校来说,年轻的霍尔兹本身就是一个挑战,因为霍尔茨无法让他的老师回答他不断提出的问题,尤其是在数学和科学方面。例如,老师说,负数的平方根是一个虚数,而霍尔兹的手会猛地举起。“为什么我们生活在一个具有这种数学结构的宇宙中呢?’这实际上是一个非常深奥的数学问题,并且有一个完全合理的答案,但是老师只会说,‘我不会回答这个问题。’’佛罗里达大西洋大学的学院比起高中的日子要好一些,随后不久他前往北卡罗来纳大学教堂山分校攻读博士学位。在应用数学某些方面,教堂山是霍尔兹的梦想之地。到处都是数学家,他被他们吸引是因为他觉得他们“从头到尾”理解问题。更妙的是,“北卡罗来纳大学是世界上唯一一个可以让数学家接触到与大多数物理学家一样多的东西的地方,”他说。“他们有巨大的风洞。他们有一个巨大的造浪池,这样人们就可以了解造浪背后的数学原理。”

北卡罗来纳大学教堂山分校

但这一切对霍尔兹来说还远远不够。他开始申请加入不同的研究团队,在他的学业之外承担了多达十几个项目,比如美国宇航局兰利研究中心研究火星上的激光雷达和甲烷项目,马克斯普朗克佛罗里达研究所的神经科学项目,北卡罗来纳大学的流体动力学项目。

然而,他始终没有忘记自己年幼就有的,挥之不去的念头:建立一种新的基于手势的方式与计算机交互。从中学开始,他就定期研究它,到研究生院,他已经建立了一个原型。研究生阶段在不同的项目之间周旋,霍尔兹有些疲惫,不得不做出一些决定。 

“我有点觉得,‘这些不是我想要解决的问题,也许我现在拥有我需要的技能和一切。我是否完成我的博士学位,去 NASA 工作,并利用那个职位最终创办一家公司?或者我可以跳过所有这些,直接去公司吗?“他选择了后者,并在大约一年后,没有获得学位就离开了北卡罗来纳大学。


  1. Leap Motion


在计算机用户界面的历史上,只有两次重大变化:在 20 世纪 80 年代中期,Apple 用基于鼠标的图形用户界面取代了旧的命令行界面,以及近年来,Apple 向全世界推出了到多点触控移动设备。在这两种情况下,其目的都是使人机交互更加直观,最大限度地减少人机之间的障碍。 

2007年乔布斯推出第一代iPhone

Leap Motion 的想法是在 Holz 上中学时萌生的。他尝试了 3D 建模,并对在计算机上完成如此困难感到惊讶。他认为问题出在人机界面上。

在离开北卡,准备创立自己的公司时,Holz找到了在佛罗里达州五年级时相识,此后一直是朋友Buckwald成为商业伙伴。两人花了很长时间讨论技术,就像他们在中学时讨论过许多其他革命性的想法一样。他们决定成立一家公司Leap Motion,霍尔兹将专注于产品背后的数学原理,而巴克瓦尔德将帮助将他朋友的想法转化为商业。

巴克瓦尔德非常腼腆,他记得在2010年与霍尔兹讨论建立Leap Motion时候,尽管第一个设备很粗糙,但它代表了一个巨大的机遇。当时的巴克瓦尔德只有21岁,但自从从乔治·华盛顿大学提前毕业(双学位)以来,他已经创立并出售了一个名为Zazuba的在线列表公司,并在马达加斯加工作了一年,为一个名为One Laptop per Child的组织设立了运营中心。

手势控制的梦想并不是新鲜事,但直到最近几年才变成现实。任天堂的Wii游戏手柄在某些方面是一款突破性的设备,它于2006年推出。虽然它非常有趣,但除了游戏之外的实用性有限,因为用户必须持有一个特殊的手柄。还有其他尝试手势界面的方法,例如其他手柄、有线手套,以及一家名为Thalmic Labs的公司开发的读取肌肉电活动的手臂带。但直到现在,目前最先进的方法是微软的Kinect,它在Holz和Buckwald决定成立公司的几天后作为Xbox游戏控制器发布。它除了要求用户在设备前面的空间中移动外,不需要任何其他的操作。

一开始,Kinect使用了“结构光”技术,它会在房间里投射出许多光点,并跟踪它们如何被移动的物体打断。当检测相对较大的运动,如高尔夫球摆动或拳击时,这种方法效果很好。但要跟踪小的手指运动,它必须测量如此多的光点,以至于需要大量的处理能力。随后微软用“飞行时间”取代了结构光,它的工作原理更像雷达。通过投射红外线光并测量其反射时间,机器实现了一种深度感知,能够构建所见图像的3D图像。新的方法比结构光更精确,但远不如Leap Motion的技术精确。Kinect最适合在几英尺远的地方使用。如果靠近进行精细工作,精度会下降。

Leap Motion的工作完全不同。Holz将Leap收集的信息比作软光下的模拟相机,这意味着它能够检测描述物体曲线和微小细节的微妙阴影。然后它跟踪这些阴影随着物体运动的变化。公司一直对设备如何将其图像文件转换为实时3D运动保持沉默,但秘密在于Holz的数学专利。也许最令人印象深刻的是,所有的处理几乎没有延迟(而Kinect一直受到有关延迟时间的抱怨)。 

Buckwald说:“我们只使用了CPU的一个单独核的小百分比,设备中没有特殊的硅片,我们使用现成的传感器和摄像头。如果有人拥有Holz的数学头脑,10年前就可以完成我们今天所做的一切。”

2013 年, Leap Motion 推出同名产品——面向 PC 以及 Mac 的体感控制器 Leap Motion,这种硬件设备可以跟踪手部动作并将其用于设备输入。一经发布便吸引了极大关注,同年 Leap Motion 拿到 B 轮融资,估值高达 3.06 亿美元,投资者包括Andreessen Horowitz、Founders Fund、Intel Capital和JP Morgan,投资金额超过1.2亿美元。

也是在 2013 年,苹果因此注意到了 Leap Motion,并联系 David Holz 试图进行收购。但 David Holz 拒绝了,因为他认为:苹果已不再创新,其技术糟透了。

接下来的几年,据一些 Leap Motion 的前员工说,不少人都跳槽去了苹果,帮助其开发各种 AR 项目。与此同时,Leap Motion 的发展逐渐受阻,但 David Holz 依旧在 2018 年再次拒绝了苹果的收购要约,最终在 2019 年以 3000 万美元的价格,将他经营 12 年,雇用了大约 100 名员工的公司卖给英国的同行 UltraHaptics。


  1. Midjourney


在 Leap Motion 之后,霍尔兹开始思考未来会是什么样子,以及在这个不确定的未来人们需要什么。他提出了 3 个他认为最重要的支柱:反思、想象和协调(reflection, imagination, and coordination)。

他住在旧金山——世界上最大的人工智能中心,这对他很有帮助。Holz 定期参加 AI 爱好者的聚会,他们会在会上讨论关于扩散模型的最新论文以及它的不同之处。他于 2022 年初开始创建 Midjourney。

MJ生成的《太空歌剧院》

从代表性作品《太空歌剧院》拿下比赛金奖,到马斯克、特朗普一系列以假乱真的AI图片,MJ单枪匹马让全世界认识了AI绘画。不到一年便实现了 1000 万用户和 1 亿美元营收。

Midjourney生成的中国情侣图

很难想象的是:这样一家 AI 绘画领域明星企业,这样令人啧啧称奇的发展速度,背后竟然只有 11 名全职员工,这 11 名全职员工的组成包括:

  • 创始人:David Holz

  • 研发工程师:Daniel,Max,Jack,Thomas,Red,Sam,Nadir,Sebastian

  • 法务和财务:Max Sills,Nadia Ali

MJ官网团队介绍

除了财务和法务,Midjourney 的 8 名研发工程师中,Red Kalab,Sam S.,Nadir Chowdhury,Sebastian Law 这 4 位甚至还是本科在读。

  • Red Kalab,目前就读于阿姆斯特丹自由大学计算机科学专业,2024 年 6 月才毕业。

  • Sam S.,目前就读于美国加州大学圣迭戈分校数据科学 专业,今年 6 月毕业。

  • Nadir Chowdhury,目前就读于伍德豪斯文法学校计算机科学专业,今年 6 月毕业。

  • Sebastian Law,目前就读于圣马特奥学院计算机与信息科学专业,今年 5 月毕业。

    除了这 4 位在读大学生,另外几位负责 Midjourney 研发工作的工程师的从业经历都较为丰富。

    • Jack Gallagher:Midjourney 首席研究科学家,多年专注于 AI 领域,曾创办 Doodlebot、Mercatoria 等公司,其中 Doodlebot 正是研究从文本到图像的生成技术。

    • Daniel Russell:Midjourney 高级软件工程师,曾在本科阶段来河北师范大学当过交换生,曾在美国互联网资产管理公司 C2FO 工作 6 年,离职前是 C2FO 高级实验师工程师。

    • Maxwell Ingham:Midjourney 高级软件工程师,拥有 6 年开发经验,曾于 Disco Diffusion 担任 AI 开发者。

    此外,Midjourney 的法务 Max Sills 有超过 10 年的法律相关从业经历,财务 Nadia Ali 此前更是 Leap Motion 的财务和运营副总裁。

    AI制作的“男足夺得世界杯冠军现场图”

    Midjourney 是 Discord 上最大的群组,拥有超过1000万用户,覆盖了不同年龄层的人群。在使用流程方面,在discord上操作十分便捷,不需要本地部署,对显卡和硬件性能也几乎没有要求。而这背后则是由于Midjourney所有的图片都是在云上完成并训练的。在没有融资的情况下,在云上进行大模型训练所需要的高昂,该成本怎么解决?

    实际上,霍尔兹解决这个问题的方式很简单,也很不可思议。当霍尔兹需要找到一个云供应商提供10,000个GPU时,他直接给云供应商的负责人发了封电子邮件,结果对方就直接给到了这些资源。在获得了供应商的鼎力支持后,Midjourney在世界上八个不同的地区,设立了自己的服务器,比如韩国、日本或荷兰等,在每个时区的夜间,当地人都在睡觉,没有人使用GPU。Midjourney就可以充分利用这些算力,实现GPU负载平衡。霍尔兹的高效经营和靠声誉获取资源,让MJ成为2023年福布斯最新的AI50家榜单里唯一一家没有任何融资的上榜企业。

    当前社交媒体为Midjourney 的巨大成功一片欢呼,甚至很多创业者都想复制霍尔兹的成功,究其根源,MJ的成功很大程度上基于 Holz 的个人理念,在全球其他地区能否能简单成功复制,还需要市场验证。

    • 他对应用程序的态度始终植根于发现产品的真实本质,而不是将自己的意见强加于产品之上。

    • 他认为产品应该让用户产生情感共鸣,他表示“重要的是人们有一种情感共鸣的体验,让他们产生情感反应。在某种程度上,我认为如果人们对你的产品有情感反应,你就已经成功了80%。”

    • 他不认为 Midjourney 是聊天机器人。他认为它有一个容器,一个心灵的载体。

    • 他从未做过明确的营销活动。Midjourney 通过口口相传和社交媒体病毒式传播而发展壮大。

    • 他没有做任何新闻发布,而是在 Midjourney Discord 服务器上宣布每个新版本和主要更新。

    1. 文生图行业和MJ的未来


    在文生图领域,除了闭源的MJ之外,还有就是Stable Diffusion为代表的开源创业公司。Stable Diffusion选择开源策略后,对于AI绘画行业来说是一个转折点,之后,大大小小的AI绘画工具被创造出来,由此又诞生了一批开源的项目和社区。就像是安卓系统,不同的开发者基于安卓创造出了繁荣的安卓生态。而MJ像苹果,尽管并不开源,但基于其特有的数据集,造就AI绘画的极致的作画效果。

    文生图领域的海外创业公司

    创业者基于Stable Diffusion,打造了AI绘画更多的、垂直领域的使用场景。而MJ则在审美和高要求上定义了这个行业的高标准。而在中国,基于Stable Diffusion做的AI绘画项目很多,生态非常繁荣。

    然而在繁荣的背后也伴随着新的麻烦。至于使用 Midjourney 生成的资产给客户带来的潜在法律风险,Holz 承认法律情况不明朗。“目前,法律对这种事情并没有任何规定,”Holz说。“据我所知,每个大型 AI 模型基本上都是根据互联网上的东西进行训练的。现在没关系。没有专门针对此的法律。也许将来会有。但这有点像小说领域,就像 GPL (自由软件许可证,它规定了如何使用、复制和分发自由软件,并确保它们保持自由。)是一种围绕编程代码的新颖法律事物。它花了大约 20 或 30 年的时间才真正成为法律系统开始弄清楚的东西。”

    料来源:

    1. ChatGPT

    2. https://www.popsci.com/technology/article/2013-07/will-these-guys-kill-computer-interface-we-know-it/

    3. https://www.theregister.com/2022/08/01/david_holz_midjourney/

    4. https://aituts.com/david-holz/


    Midjourney作为AI绘画领域的龙头企业,成立不到一年,0融资,11人团队,1亿美金收入火爆全球,我们一起看看MJ创始人的故事。

    如果您也在从事AI相关工作,欢迎添加小编微信pkcapital2023,和一群对创业和投资有热情的小伙伴一起交流,。


    继续滑动看下一个
    向上滑动看下一个

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存